尽管近年来取得了惊人的进步,但最先进的音乐分离系统会产生具有显着感知缺陷的源估计,例如增加无关噪声或消除谐波。我们提出了一个后处理模型(MAKE听起来不错(MSG)后处理器),以增强音乐源分离系统的输出。我们将我们的后处理模型应用于最新的基于波形和基于频谱图的音乐源分离器,包括在训练过程中未见的分离器。我们对源分离器产生的误差的分析表明,波形模型倾向于引入更多高频噪声,而频谱图模型倾向于丢失瞬变和高频含量。我们引入了客观措施来量化这两种错误并显示味精改善了两种错误的源重建。众包主观评估表明,人类的听众更喜欢由MSG进行后处理的低音和鼓的来源估计。
translated by 谷歌翻译
Developing and least developed countries face the dire challenge of ensuring that each child in their country receives required doses of vaccination, adequate nutrition and proper medication. International agencies such as UNICEF, WHO and WFP, among other organizations, strive to find innovative solutions to determine which child has received the benefits and which have not. Biometric recognition systems have been sought out to help solve this problem. To that end, this report establishes a baseline accuracy of a commercial contactless palmprint recognition system that may be deployed for recognizing children in the age group of one to five years old. On a database of contactless palmprint images of one thousand unique palms from 500 children, we establish SOTA authentication accuracy of 90.85% @ FAR of 0.01%, rank-1 identification accuracy of 99.0% (closed set), and FPIR=0.01 @ FNIR=0.3 for open-set identification using PalmMobile SDK from Armatura.
translated by 谷歌翻译
在这项工作中,我们证明了多种语的大规模序列到序列(SEQ2SEQ)模型,该模型是通过Denoising和因果语言建模(CLM)任务的混合物进行训练的,比仅解码器模型更有效地进行了效率的学习者在各种任务上。特别是,我们培训了一个名为Alexa教师模型(Alexatm 20b)的200亿个参数多语言SEQ2SEQ模型,并表明它在1-Shot摘要任务上实现了最先进的(SOTA)性能,超过了更大的540B PALM DOPODER模型。 Alexatm 20b还可以在1-Shot Machine翻译中实现SOTA,尤其是对于低资源语言,几乎所有语言对(阿拉伯语,英语,法语,德语,德语,印地语,意大利语,日语,以及flores-101数据集上的泰卢固语)。我们还显示了零拍设置,AlexATM 20B在SuperGlue和SqueadV2数据集上的表现优于GPT3(175B),并在XNLI,XCOPA,PAWS-X和XWINOGRAD等多语言任务上提供SOTA性能。总体而言,我们的结果为SEQ2SEQ模型提供了一个令人信服的案例,作为大型语言模型(LLM)培训的仅解码器模型的强大替代方法。
translated by 谷歌翻译
对生物医学图像进行操纵以虚假陈述实验结果,困扰着生物医学界。对该问题的最新兴趣导致了数据集和相关任务的策划,以促进生物医学法医方法的发展。其中,最大的操纵检测任务侧重于检测图像之间的重复区域。基于自然图像训练的法医模型的传统计算机视觉并非旨在克服生物医学图像带来的挑战。我们提出了一个多尺度重叠检测模型,以检测重复的图像区域。我们的模型的结构是从层次上找到重复,以减少补丁操作的数量。它总体上和多个生物医学图像类别都达到了最先进的性能。
translated by 谷歌翻译
我们介绍了一个大规模实验,该实验对编码器进行了预处理,其参数计数范围从700m到9.3b不等,随后蒸馏到较小的型号中,范围为17m-170亿参数,其应用到自然语言理解(NLU)组件(NLU)组件(虚拟助手系统。尽管我们使用70%的口语数据训练,但在对书面形式的跨语性自然语言推论(XNLI)语料库进行评估时,我们的教师模型与XLM-R和MT5相当。我们使用系统中的内域数据对教师模型进行了第二阶段的训练,以提高了3.86%的相对分类,而相对7.01%的插槽填充。我们发现,即使是从我们的2阶段教师模型中提取的170亿参数模型,与仅接受公共数据的2.3B参数老师相比,与2.3B参数老师相比,意图分类更好2.88%,并且7.69%的插槽填充错误率更好(第1阶段),强调了。内域数据对训练的重要性。当使用标记的NLU数据进行离线评估时,我们的17m参数阶段2蒸馏模型的表现分别优于XLM-R碱基(85m Params)和Distillbert(42m Params),分别优于4.23%至6.14%。最后,我们介绍了一个完整的虚拟助手实验平台的结果,在该平台中,我们发现使用经过预训练和蒸馏管道训练的模型超过了从8500万参数教师蒸馏的模型,在自动测量全系统用户不满的自动测量中,从8500万参数教师蒸馏出3.74%-4.91%。
translated by 谷歌翻译
我们介绍了用于插槽,意图分类和虚拟助手评估的大规模数据集 - 数字亚马逊SLU资源包(SLURP)。大规模包含1M现实,平行,标记为虚拟助手的话语,涵盖51种语言,18个域,60个意图和55个插槽。通过任务专业翻译人员将仅英文slurp数据集定位为29属的50种类型多样性的语言来创建大规模。我们还介绍了XLM-R和MT5上的建模结果,包括精确的匹配精度,意图分类精度和插槽填充F1分数。我们已经公开发布了数据集,建模代码和模型。
translated by 谷歌翻译
我们为在一般来源条件下的希尔伯特量表中的新型Tikhonov登记学习问题提供了最小的自适应率。我们的分析不需要在假设类中包含回归函数,并且最著名的是不使用传统的\ textit {先验{先验}假设。使用插值理论,我们证明了Mercer运算符的光谱可以在存在“紧密''$ l^{\ infty} $嵌入的存在的情况下,可以推断出合适的Hilbert鳞片的嵌入。我们的分析利用了新的傅立叶能力条件在某些参数制度中,修改后的Mercer运算符的最佳Lorentz范围空间。
translated by 谷歌翻译
第五代(5G)网络和超越设想巨大的东西互联网(物联网)推出,以支持延长现实(XR),增强/虚拟现实(AR / VR),工业自动化,自主驾驶和智能所有带来的破坏性应用一起占用射频(RF)频谱的大规模和多样化的IOT设备。随着频谱嘎嘎和吞吐量挑战,这种大规模的无线设备暴露了前所未有的威胁表面。 RF指纹识别是预约的作为候选技术,可以与加密和零信任安全措施相结合,以确保无线网络中的数据隐私,机密性和完整性。在未来的通信网络中,在这项工作中,在未来的通信网络中的相关性,我们对RF指纹识别方法进行了全面的调查,从传统观点到最近的基于深度学习(DL)的算法。现有的调查大多专注于无线指纹方法的受限制呈现,然而,许多方面仍然是不可能的。然而,在这项工作中,我们通过解决信号智能(SIGINT),应用程序,相关DL算法,RF指纹技术的系统文献综述来缓解这一点,跨越过去二十年的RF指纹技术的系统文献综述,对数据集和潜在研究途径的讨论 - 必须以百科全书的方式阐明读者的必要条件。
translated by 谷歌翻译
前列腺癌是美国男人的第二致致命癌症。虽然磁共振成像(MRI)越来越多地用于引导前列腺癌诊断的靶向活组织检查,但其效用仍然受到限制,因为假阳性和假否定的高率以及较低的读者协议。机器学习方法在前列腺MRI上检测和定位癌症可以帮助标准化放射科学诠释。然而,现有的机器学习方法不仅在模型架构中不等,而且还可以在用于模型培训的地面真理标签策略中。在这项研究中,我们比较不同的标记策略,即病理证实放射科标签,整个安装组织病理学图像上的病理学家标签,以及病变水平和像素级数字病理学家标签(先前验证了组织病理学图像上的深层学习算法以预测像素 - 整个安装组织病理学图像上的Gleason模式)。我们分析这些标签对训练有素的机器学习模型的性能的影响。我们的实验表明,用它们培训的(1)放射科标签和模型可能会错过癌症,或低估癌症程度,(2)与他们培训的数字病理学家标签和模型与病理学家标签有高度的一致性,而(3)用数字病理学家培训的模型标签在两种不同疾病分布的两种不同群组中达到最佳性能,而不管使用的模型建筑如何。数字病理学家标签可以减少与人类注释相关的挑战,包括劳动力,时间,和读者间变异性,并且可以通过使可靠的机器学习模型进行培训来检测和定位前列腺癌,帮助弥合前列腺放射学和病理学之间的差距在MRI。
translated by 谷歌翻译
近期和快速转变为大流行迅速的数字学习,也受到数字工具和平台无处不在的可用性的影响,使数字学习更加接近。扩展数字学习和教学中最困难的部分中的一个积分和一个是能够评估学习者的知识和能力。教育者可以录制讲座或创造数字内容,可以传递到数千名学习者,但评估学习者是非常耗时的。在本文中,我们提出了基于人工智能(AI)的解决方案,即VidVersityQG,用于自动从预先记录的视频讲座产生问题。基于从视频推断的上下文和语义信息,该解决方案可以自动生成不同类型的评估问题(包括短答案,多项选择,真/假并填写空白问题)。所提出的解决方案采用以人为本的方法,其中教师提供了修改/编辑任何AI生成的问题的能力。这种方法鼓励教师参与教育的使用和实施教育。评估了基于AI的解决方案,以便通过我们的行业合作伙伴Vidversity提供给我们的多个域名的经验丰富的教学专业人员和117名教育视频的准确性。 VidVersityQG解决方案显示有希望自动从视频产生高质量问题,从而大大减少了在手动问题中为教育工作者的时间和精力。
translated by 谷歌翻译